Attention is all you need
前提:
RNNの記憶力弱いのに対して、Transformerは強い、と https://i.imgur.com/J1Znwrs.png
わかりやすい
その単語を理解する上で大事な周辺単語への注目を推論する
分からない事
Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。
エンコーダ-デコーダモデル
Attention
Position-wise全結合層
文字の埋め込みとソフトマックス
位置エンコーディング